توجه (یادگیری ماشین)
یادگیری ماشین و دادهکاوی |
---|
در زمینه شبکههای عصبی، توجه تکنیکی است که توجه شناختی را تقلید میکند.
این روش باعث تمرکز بیشتر مدل بر روی یکسری دادهها مهم در حین مرحله آموزش شده و اثر مابقی موارد را در این مرحله کاهش میدهد. (این تصور وجود دارد که شبکه باید قدرت محاسباتی بیشتری را روی آن قسمتهای کوچکتر اما مهم داده اختصاص دهد)
در واقع توجه تکنیکی است که در ان به ورودیها یکوزن اختصاص داده شده، که این وزن نشاندهنده اهمیت و تأثیر این داده بر روند آموزش مدل است.
اینکه کدام قسمت از دادهها از دیگر نمونهها مهمتر بوده بسته به وزنهای انتخابی داشته و از طریق آموزش دادهها و مدل با روش گرادیان کاهشی میتوان به این خواسته رسید.
این تکنیک در طیف گستردهای از مدلهای یادگیری ماشین، از جمله در پردازش زبان طبیعی و بینایی کامپیوتر، مورد استفاده قرار میگیرد.[۱][۲]
شبکههای ترانسفورماتور (شبکه تبدیل کننده) برای دستیابی به قدرت بیان خود از مکانیسمهای توجه استفاده گسترده میکنند.[۱] سیستمهای بینایی رایانه مبتنی بر شبکههای عصبی کانولوشن نیز میتوانند از مکانیسمهای توجه بهرهمند شوند
از متداولترین کاربردهای این تکنینک، تمرکز بر روی نتیجه است که از حاصل نقطهای بین بردارهای دادهها برای تعیین توجه دیگر نقاط استفاده میکند، همچنین چندین مکانیزم توجه مختلف را برای هدایت کلی یک شبکه یا شبکه فرعی در این روش ترکیب میشود.
استفاده از این تکنیک در مدلهای مختلف یادگیری ماشین در کارهای مختلف تأثیرگذار بوده و قسمت پرکاربردی از مدلهای پیشرو در زمنیههای مختلف شدهاست.
انواع مختلفی از مکانیزم توجه وجود دارد، همانند توجه نرم، توجه سخت و توجه چند واحدی که هرکدام مزایای کاربردی در مدلهای مختلف را دارا میباشد.
ایده کلی
[ویرایش]روش کار این تکنینک به صورت کلی به این ترتیب است که یکسری ورودی متوالی همانند که به وسیله اندیس شماره گذاری شدهاند داریم. شبکه عصبی یکوزن معادل برای هر میسازد با احتمال آنکه منفی نباشد و داشته باشیم.
برای هر یک بردار اختصاص داده میشود به طوری که مقدار این بردار از دگرنمایی واژه برای تکه ام محاسبه میشود. در این حالت میانگین وزنی خروجی مکانیزم توجه خواهد بود.
در اینجا مکانیزم کلید-جستار مقادیر وزنهای تغییر داده شده را به دست میآورند. به طوری که از روش دگرنمایی واژه برای هر قسمت بردار جستارهای مربوطه و بردار کلید ساخته میشود. پس از این وزنها از بیشینه هموار ضرب داخلی عبارت به دست میآید. در اینجا نشاندهنده تکه فعلی در ورودیها و نشاندهنده تکهای است که به آن در ورودی متصل است.
در برخی از معماریهای استفاده شده از تکنیک توجه، چندین بخش مجزا برای پیادهسازی این تکنیک استفاده میشود به طوری که هرکدام مقادیر جستار، کلید و بردارهای مستقل خود را دارند.
محدودیتی که میتواند این روش ایجاد کند هزینه محاسبات کامپیوتری نسبتاً زیاد برای آموزش مدل است زیرا که در هر مرحله نیاز است که وزنها و امتیازهای توجه برای دادهها محاسبه شده و براساس آن خروجی تشکیل شود. همچنین استفاده از این تکنیک باعث غیرقابل تفسیر کردن مدل مدنظر میشود. در واقع فهمیدن چرایی تمرکز مدل بر روی قسمتی از دادهها میتواند چالشبرانگیز باشد.
یک مثال ترجمه زبان
[ویرایش]در اینجا مثالی از ساخت مدلی که بتواند یک عبارت انگلیسی را به فرانسوی ترجمه کند آمدهاست. (به نمودار پایین دقت کنید. در ابتدا با رمز گذاری و رمز گشایی و پیوند زدن واحدهای توجه مکانیزم شروع میشود. واحد توجه یک شبکه عصبی از ترکیب وزنی رمزگذاری خروجیها به رمزگشایی دادههای ورودی استفاده میکند)
|
این جدول محاسبات را در هر مرحله نشان میدهد. برای شفافیت، از مقادیر و اشکال عددی خاص به جای حروف استفاده میشود. اشکال تو در تو ماهیت خلاصه h را نشان میدهد، جایی که هر h حاوی تاریخچه ای از کلمات قبل از آن است. در اینجا، امتیازات توجه ساخته شدهاست تا وزنهای مورد توجه را بهدست آورید.
به عنوان یک ماتریس، وزنهای توجه نشان میدهند که چگونه شبکه تمرکز خود را متناسب با زمینه تنظیم میکند.
I | love | you | |
je | .۹۴ | .۰۲ | .۰۴ |
t' | .۱۱ | .۰۱ | .۸۸ |
aime | .۰۳ | .۹۵ | .۰۲ |
این دیدگاه به آدرس وزنهای توجه مسئله " توانایی توضیح دادن" که شبکههای عصبی مورد انتقاد قرار میگیرند، میپردازد. شبکههایی که ترجمه لفظی را بدون توجه به ترتیب کلمات انجام میدهند، اگر این اصطلاحات قابل تحلیل باشند، ماتریس غالب مورب دارند. تسلط خارج از مورب نشان میدهد که مکانیسم توجه از ظرافت بیشتری برخوردار است.
در اولین عبور از رمزگشایی، ۹۴٪ از وزن توجه به اولین کلمه انگلیسی "I" است، بنابراین شبکه کلمه "je" را ارائه میدهد. در قسمت دوم رمزگشایی، ۸۸٪ از وزن توجه به کلمه سوم انگلیسی "you" است، بنابراین "t" را ارائه میدهد. در آخرین قسمت، ۹۵٪ از وزن توجه به کلمه انگلیسی دوم "love" است، بنابراین "aime" را ارائه میدهد.
پیوند به بیرون
[ویرایش]- الکس گریوز (۴ مه ۲۰۲۰) ، توجه و حافظه در یادگیری عمیق (سخنرانی ویدیویی)، DeepMind / UCL، از طریق YouTube.
- تخته سفید الگوریتم رسا - توجه از طریق یوتیوب
منابع
[ویرایش]- ↑ ۱٫۰ ۱٫۱ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017-12-05). "Attention Is All You Need". arXiv:1706.03762 [cs.CL].
- ↑ Ramachandran, Prajit; Parmar, Niki; Vaswani, Ashish; Bello, Irwan; Levskaya, Anselm; Shlens, Jonathon (2019-06-13). "Stand-Alone Self-Attention in Vision Models". arXiv:1906.05909 [cs.CV].